Watermark in Neural Network

2022/11/9

research

AI security

作为一个最近逐渐被重视且发展趋势较好的领域，神经网络中的水印相关的研究正在蓬勃发展，这也得益于对于神经网络模型作为一种智力成果和知识产权的重视。同时，这个领域在一些方面与后门有着相通之处，可以在某种角度说成是后门攻击的正向应用，故有着很好的发展前景。

研究背景

神经网络模型的知识产权保护

概念

数字水印是一种将特定信息（又称水印）隐藏在数字信号中、不影响信号使用价值的技术。若要拷贝载有水印的信号，则水印也会一并被拷贝。如果水印包含了信号拥有者和来源等信息，一旦信号被泄露，通过在泄露的信号中重构水印，可确定信号的版权。

评价指标

首先要确保水印嵌入不会严重损害神经网络在特定任务上的性能，即任务保真度高。

借鉴多媒体水印技术的评价指标，神经网络模型水印还需要考虑：

水印嵌入量
水印保真度
水印唯一性（不能从未添加水印的任意神经网络模型中重构出水印）
计算复杂度（嵌入/提取水印的运算量）
安全性（攻击者重建水印的难度）
鲁棒性（抵抗水印攻击的能力）
普适性

现有方法

主流

主流方法多针对卷积神经网络，其原因在于卷积神经网络的应用更为广泛和成功，且一些适用于卷积神经网络的模型水印技术能够扩展到其他网络。

从神经网络的任务看，主流方法多面向分类模型和生成模型，前者预测样本的类别，后者依据学习到的知识，生成新的样本。

添加水印方法

（黑盒、白盒假设较强，剽窃者通过严格限制模型使用权限，可轻易使“白盒”水印和“黑盒”水印失效，无法提取。）

构造特殊的输入样本（输入层）–也有基于触发集的黑盒水印之称

利用神经网络在特殊样本集上的预期输出承载水印。（目前比较局限于分类问题）

e.g. Jialong Zhang, Zhongshu Gu, Jiyong Jang, Hui Wu,Marc Ph. Stoecklin, Heqing Huang, Ian Molloy. Protecting intellectual propertyof deep neural networks with watermarking. http://Proc.Asia Conference on Computer and Communications Security, pp. 159-172, 2018.

对输入添加特定的模式，并通过更改标签，使神经网络学习到特定的模式，建立起特定的模式与更改后的标签之间的对应关系，水印检测时，依据目标神经网络在添加有特定模式的样本集上的输出结果来确定产权，相关工作还包括标签扩容[3]、对抗样本[4]等。

[3] Qi Zhang, Leo Yu Zhang, Jun Zhang, Longxiang Gao,Yong Xiang. Protecting IP of deep neural networks with watermarking: a newlabel helps. Proc. Pacific-AsiaConference on Knowledge Discovery and Data Mining, pp. 462-474, 2020.

[4] Erwan Le Merrer, Patrick Pérez, Gilles Trédan. Adversarialfrontier stitching for remote neural network watermarking. Neural Computing and Applications, vol. 32, no. 13, pp. 9233-9244,2020.

调整神经网络的结构或参数（中间层）–基于权重的白盒水印

通过修改神经网络的结构或参数来承载水印。

e.g. Yusuke Uchida, Yuki Nagai, Shigeyuki Sakazawa,Shin’ichi Satoh. Embedding watermarks into deep neural networks. Proc. ACM on International Conference onMultimedia Retrieval, pp. 269-277, 2017.

通过添加关联水印的正则化项使神经网络在训练的过程中将水印自动嵌入在模型的参数当中，在此基础上，文献[5]提出利用额外的神经网络改进水印嵌入和提取的性能。相关工作还包括抖动调制[6]、植入指纹[7]、补偿机制[8]和添加特殊层[9]等。

标记神经网络的输出结果（输出层）–无盒

通过调制神经网络的输出结果，达到承载水印的目的。

对神经网络的输出图像添加水印，能够在输出图像中检测水印以鉴定产权。

水印提取方法

许多修改网络参数的方法可归类为白盒水印，基于后门或对抗样本的方法多属于黑盒水印，通过对神经网络的输出添加水印则可以实现无盒认证。

白盒

白盒水印是指提取者能够访问目标网络的内部结构和参数，并能与之交互（输入/输出查询）

黑盒

黑盒水印是指提取者不能掌握目标网络的全部细节，但能与之交互

无盒

无盒水印是指提取者既不能完全掌握目标网络的细节，也不能与之交互，但能够通过其他手段收集到由目标网络制造的数据。

水印攻击方法

“攻击嵌入”

目的是去除已嵌入的水印，典型的攻击手段包括模型重训练、模型微调、模型压缩和剪枝等。

“攻击提取”

目的是让水印难以重构，例如，通过对输入样本或输出结果进行干扰（如篡改输入样本、伪造输出结果等），可以使水印检测失败。

“提升自身实力，与之共存”

目的是植入或伪造对攻击者有利的新水印，造成产权鉴定出现歧义。

LOADING...